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摘要 : 


哈尔滨 150040) 


【 目的】 利用 改进 的 粒子 群 算法 进行 云 计算 产业 联盟 知识 搜索 ,提高 搜索 的 准确 率 和 效率 。[ 方法 】 首 先 


利用 MapReduce 中 Map 函数 对 粒子 分 组 实现 并 行 化 处 理 ， 再 运用 Reduce 函数 对 粒子 搜索 的 结果 进行 归 约 ， 缩 短 
搜索 的 时 间 。 在 粒子 搜索 过 程 中 , 根据 小 组 内 最 优 位 置 的 平均 值 进行 小 组 内 粒子 的 信息 交互 ， 避 免 算法 早熟 收敛 
于 一 个 局 部 最 优 值 。【 结果 】 通 过 三 组 仿真 实验 对 改进 的 粒子 群 算法 和 标准 粒子 群 算法 进行 对 比分 析 , 结果 表明 
改进 的 粒子 群 算法 在 效率 与 准确 率 方面 均 具 有 明显 的 优越 性 。[ 局 限 】 样本 数据 存在 干扰 数据 ， 有 待 改 进 。[ 结 


论 ] 该 方法 能 提高 云 计 算 产业 联盟 知识 搜索 的 准确 性 ， 


并 提升 搜索 效率 。 
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1 3 引 


云 计 算 自 提出 以 来 发 展 迅猛 ,世界 各 国 对 它 广 阔 
的 市 场 前 景 和 巨大 的 产业 机 遇 给 予 高 度 关注 。 根 据 赛 
迪 智 库 发 布 的 《 云 计算 产业 发 展 白 皮 书 (2015 版 )》 显 
示 , 2015 年 全 球 云 计 算 服 务 市 场 规模 达到 1 800 亿美 
元 , 增长 18%, 全 球 IT 公司 纷纷 向 云 计 算 转 型 , 云 计 
算 产 业 规模 高 速 增长 。 云 计算 产业 联盟 的 成 立正 是 为 
了 致力 于 云 计算 产业 服务 , 推动 云 计算 生态 系统 和 云 
计算 产业 发 展 。 云 计算 产业 联盟 是 聚集 云 计算 产业 链 
上 下 游 重点 企业 ,以 合同 或 契约 关系 结 成 的 联合 体 ， 
联盟 成 员 之 间 互 相信 任 、 共 享 知识 ,提高 联盟 内 知识 
共享 利用 率 , 实现 云 计算 产业 联盟 和 成 员 利 益 最 大 化 
的 新 型 产业 组 织 。 翟 丽 丽 等 指出 组 建 云 计算 产业 联盟 
的 一 个 重要 的 原因 是 联盟 成 员 相 互信 任 , 能 够 借助 联 
盟 的 力量 实现 知识 共享 从 而 弥补 成 员 自 身 的 知识 缺 
口 ,优化 联盟 成 员 的 知识 配置 中 , 云 计算 产业 联盟 成 员 
依靠 云 计算 技术 各 自 形 成 存放 知识 以 及 外 部 知识 的 可 


了 


共享 云 数 据 库 , 通过 云 计算 产业 联盟 知识 平台 对 云 数 
据 库 的 访问 ,实现 联盟 内 的 知识 搜索 。 因此 ， 联 盟 成 员 
如 何在 云 数据 库 中 迅速 而 准确 地 查 到 所 需要 的 知识 ， 
是 吸 需 解决 的 问题 。 

为 解决 上 述 问题 , 并 有 效 针 对 云 计算 产业 联盟 中 
知识 的 海量 性 和 多 样 性 及 云 数据 库 的 分 布 式 和 动态 可 
扩展 性 等 特点 外 ,需要 运用 一 种 搜索 算法 使 联盟 成 员 
能 够 准确 而 又 快速 地 获取 知识 。 算 法 的 选择 主要 遵从 
以 下 两 个 方面 : 

(1) 搜索 时 间 问 题 。 随 着 云 计算 产业 联盟 的 运营 
及 成 员 的 增加 , 云 数据 库存 量 和 数量 不 断 变 大 变 多 ， 
为 联盟 成 员 搜索 造成 困难 ， 所 以 用 降低 最 优 值 精度 的 
方法 来 提高 计算 效率 门 。 

(2) 全 局 最 优 性 。 云 计算 产业 联盟 云 数 据 库 是 庞 
大 的 资源 池 , 普通 的 搜索 算法 ， 如 蚊 群 算法 ， 因 收敛 于 
局 部 最 优 解 外 ,不 能 为 联盟 成 员 搜索 到 更 精准 的 知识 。 

粒子 群 是 一 种 启发 式 算法 , 它 能 同时 解决 静态 及 
动态 的 组 合 优化 问题 沾 。 云 计算 产业 联盟 成 员 知 识 搜 
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索 过 程 与 粒子 群 中 乌 找 食 行为 的 原理 十 分 切合 。 然 而 
云 计算 产业 联盟 中 去 数据 库 众 多 且 分 布 复杂 , 仅 用 标 
准 粒子 群 算法 进行 知识 搜索 , 粒子 之 间 缺 乏 信息 沟通 
和 合作 ,最 后 陷入 局 部 最 优 解 ， 不 能 全 面 访问 云 数据 
库 。 在 避免 粒子 群 算法 早熟 方面 , 前 人 提出 许多 改进 
方法 , 对 粒子 群 优化 算法 的 参数 进行 自 适 应 选择 策略 ， 
如 采用 动态 非 线性 函数 控制 参数 各、 利用 Q- 学 习 调 节 
参数 趾 、 采 用 自 适 应 评论 策略 调节 参数 站 等 。 此 外 , 王 
燕 燕 等 提出 一 种 动态 分 组 的 粒子 群 优 化 算法 ， 划 分 的 
子 种 群 数目 从 特定 集合 中 随机 选取 , 虽然 能 够 提高 整 
体 求解 质量 , 但 对 于 复杂 问题 仍 存在 不 足 外 ,众多 专业 
学 者 越 来 越 关 注 粒 子 群 算法 ， 由 于 求解 优秀 , 粒子 群 
算法 已 运用 于 云 计 算 领 域 。 李 志 洁 等 利用 改进 的 粒子 
群 ， 处理 网 格 资源 分 配 问题 ,从 而 实现 存储 约束 条 件 
下 网 格 资源 优化 分 配 5。 李 媛 媛 等 提出 一 种 快速 收敛 
的 改进 粒子 群 优化 算法 来 进行 云 平 台 的 调度 ， 能 够 以 
较 高 的 效率 和 准确 率 完成 所 有 任务 ' 1。 上 述 表明 , 改 
进 的 粒子 群 算法 在 解决 云 计算 领域 的 问题 上 存在 优 
势 , 并 受到 一 致 认可 , 但 是 研究 多 是 对 粒子 群 算法 本 
身 的 参数 进行 修改 , 没有 考虑 云 计算 产业 联盟 和 联盟 
内 知识 的 分 散 、 多 样 等 特性 。 

基于 以 上 分 析 , 本 文 针 对 云 计 算 产 业 联 盟 内 知识 
及 云 数据 库 的 特点 , 提出 一 种 基于 MapReduce 的 改进 
粒子 群 算法 。 一 方面 针对 云 计算 产业 联盟 中 知识 的 动 
态 增 量 的 特点 , 结合 MapReduce 函数 完成 对 粒子 群 的 
分 组 ， 实 现 并 行 化 处 理 ， 提 高 搜索 效率 ,避免 使 用 随 
机 生成 所 造成 初始 位 置 具 有 片面 性 的 问题 ; 另 一 方面 
针对 粒子 群 原 有 的 算法 进行 改进 , 对 粒子 分 组 利用 小 
组 内 最 优 位 置 的 平均 值 进行 小 组 内 粒子 的 信息 交互 ， 
避免 算法 收敛 于 一 个 局 部 最 优 值 ， 从 而 提高 搜索 效率 
与 准确 率 。 


2 云 计算 产业 联盟 知识 搜索 分 析 


2.1 云 计算 产业 联盟 的 成 员 分 析 

联盟 的 成 员 包 括 : 软件 提供 商 、 网 络 运营 商 、 硬 
件 设施 提供 商 、 内 容 提供 商 、 科 研 机 构 和 云 计算 服务 
提供 商 。 云 计算 产业 联盟 成 员 通 过 网 络 及 应 用 软件 ， 
向 云 计 算 服 务 提供 商 发 出 请 求 ， 并 将 所 需 服务 返回 给 
成 员 。 软 件 服务 提供 商 负责 为 其 他 各 成 员 提 供 软件 支 
持 , 并 为 整个 联盟 运行 提供 软件 应 用 , 使 成 员 通过 软 
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件 应 用 连接 云 服 务 端 。 网 络 运营 商 主 要 为 其 他 各 成 员 
提供 网 络 服务 、 内 容 服 务 、 增 值 服 务 , 并 为 整个 联盟 
的 运行 提供 网 络 支 持 , 使 用 户 依 托 网 络 接 入 云 。 硬 件 
设施 提供 商 主 要 是 为 云 计算 服务 提供 商 提 供 硬 件 设 
施 ,帮助 搭建 云 平台 、 云 应 用 等 , 为 整个 联盟 的 运行 提 
供 硬件 基础 。 科 研 机 构 主 要 提供 理论 与 技术 支持 , 包 
括 联盟 管理 、 联 盟 运 营 以 及 风险 控制 与 利益 分 配 等 设 
计 。 云 计算 服务 提供 商 是 整个 联盟 运行 的 核心 , 提供 
云 资源 服务 、 云 平台 服务 以 及 云 应 用 服务 , 它 需 要 依 
托 各 成 员 的 支持 ， 并 将 云 服 务 提 供给 各 成 员 。 

根据 云 计算 产业 联盟 的 运行 情况 以 及 联盟 成 员 自 
有 的 属性 , 云 计算 产业 联盟 知识 的 类 型 主要 分 为 以 下 
类 别 : 运营 商 知识 、 硬 件 设备 知识 、 软 件 知识 、 内 容 
知识 、 云 计算 服务 知识 、 科 研 知识 和 联盟 创新 知识 ， 如 
表 1 所 示 。 
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表 1 云 计算 产业 联盟 知识 类 型 
知识 类 型 描述 
运营 商 知 识 移动 、 联 通 、 电 信和 在 运行 中 所 产生 的 知识 
硬件 设备 知识 。 制造 硬件 过 程 中 产生 的 知识 
软件 知识 软件 设计 、 运 行 、 维 护 的 知识 
内 容 知识 文字 、 图 像 、 音 频 和 视频 等 各 种 媒体 内 容 
云 计算 服务 知识 包括 云 平台 知识 、 云 资源 知识 以 及 云 应 用 知识 


科研 知识 研究 院 、 高 校 研究 提供 理论 与 技术 支持 
联盟 创新 知识 ”联盟 在 运营 中 所 产生 的 知识 


2.2 ” 云 计算 产业 联盟 知识 特性 分 析 

(1) 分 散 性 : 云 计 算 产 业 联盟 成 员 广泛 分 布 在 不 
同 地 理 位 置 , 成 员 的 知识 均 保 存在 各 自 的 云 数 据 库 中 ， 
根据 知识 类 型 不 同 的 组 织 形 态 存 储 知 识 。 

(2) 多 样 性 : 云 计算 产业 联盟 中 的 知识 , 不 仅 包 
括 运营 商 知 识 、 硬 件 设备 知识 、 软 件 知识 、 内 容 知识 、 
云 计算 服务 知识 以 及 科研 知识 ,还 包括 云 计算 产业 联 
盟 创 新 的 知识 、 维 护 联盟 的 知识 、 管 理 技能 知识 以 及 
联盟 的 公共 关系 知识 。 

(3) 海量 性 : 云 计 算 产 业 联盟 中 的 各 种 知识 无 时 
无 刻 均 被 存储 在 各 个 不 同 的 云 数据 库 ， 此 外 联盟 成 员 
的 知识 进行 各 种 交互 与 协作 都 会 产生 海量 的 交互 、 交 
易 知 识 。 

(4) 增 量 性 : 随 着 云 计算 产业 联盟 的 发 展 和 运作 ， 
联盟 中 的 知识 以 动态 增长 的 形式 大 量 产生 和 积累 ， 联 
盟 成 员 通 过 进行 知识 交互 ,成员 本 身 的 知识 存量 也 在 


不 断 增长 。 

(5) 资产 性 : 知识 可 以 看 作 一 种 无 形 的 资产 , 不 
同 企业 通过 云 计 算 产 业 联 盟 平 台 , 提交 各 自 的 知识 ， 
共同 服务 于 联盟 , 不 断 创 新 , 将 知识 作为 一 种 服务 或 者 
是 商品 提供 给 不 同 的 用 户 。 所 以 知识 的 价值 在 于 不 断 开 
发 、 挖 气 、 人 处 理 等 过 程 中 创新 出 的 知识 商品 (服务 )。 
云 计算 产业 联盟 成 立 的 主要 目标 是 实现 知识 共 
享 , 但 是 云 计 算 产 业 联 盟 中 知识 类 型 繁多 , 并 且 联 盟 
知识 的 多 样 性 、 海 量 性 和 增 量 性 等 特点 ,决定 了 联盟 
成 员 进行 知识 共享 的 困难 。 联 盟 成 员 在 联盟 中 获取 知 
识 , 提高 成 员 自 身 的 竞争 力 和 创新 力 ， 从 而 在 激烈 的 
市 场 竞争 中 具备 优势 ， 所 以 联盟 内 知识 的 搜索 就 显得 
尤为 重要 。 

2.3” 云 计算 产业 联盟 知识 搜索 优化 过 程 分 析 

云 计算 产业 联盟 内 的 成 员 拥 有 形成 云 环境 的 技 
术 基 础 , 联盟 内 的 成 员 企 业 提供 自己 的 基础 设施 或 
服务 器 , 组 成 一 个 用 于 存放 各 成 员 知 识 以 及 外 部 知 
识 的 云 数 据 库 ,并 共同 搭建 云 计算 产业 联盟 知识 平 
台 。 通过 知识 共享 平台 实现 对 云 数 据 库 的 搜索 , 使 联 
盟 内 成 员 能 够 快速 便捷 地 获取 所 需 知 识 。 联盟 成 员 可 
免费 提供 给 其 他 成 员 的 知识 以 及 需要 付费 才能 获取 
的 知识 通过 本 体 化 表达 , 利用 云 存 储 技 术 存 储 在 云 
数据 库 中 , 不 同类 型 的 知识 用 不 同 的 本 体 表 达 。 联 盟 
成 员 进行 知识 搜索 时 ,根据 自 己 的 搜索 需求 在 引擎 
数据 库 中 选取 相应 的 知识 类 型 的 本 体 表 现形 式 作 为 
粒子 初始 所 携带 的 知识 , 通过 API 接口 ,可 以 实现 对 
云 数 据 库 的 访问 。 

云 计算 产业 联盟 的 成 员 众多 ,导致 存放 成 员 知 识 
的 云 数据 库 数 量 巨大 , 并 且 由 于 成 员 的 加 入 和 退出 ， 
使 得 联盟 的 云 数 据 库 数量 是 动态 变化 的 。 而 联盟 云 数 
据 库 中 存放 的 知识 具有 多 样 性 、 海 量 性 和 增 量 性 等 特 
性 。 由 于 标准 粒子 群 算法 随机 生成 初始 搜索 位 置 ， 导 
致 标准 粒子 群 算法 在 联盟 中 按照 原来 的 串 行 搜 索 方式 
进行 知识 搜索 时 计算 难度 大 , 搜索 时 间 长 。 因 此 引入 
处 理 海量 知识 有 效 的 MapReduce 函数 ， 准 确 计算 出 粒 
子 的 初始 化 位 置 ， 帮 助 其 实现 知识 搜索 的 并 行 化 处 
理 。 此 外 , 标准 粒子 群 算法 进行 搜索 时 要 所 有 的 粒子 
同时 更 新 , 且 需 要 大 量 的 最 优 位 置 共 享 和 交互 才能 完 
成 迭代, 但 是 在 云 计算 产业 联盟 分 布 式 环境 下 搜索 就 
显得 尤为 困难 。 所 以 在 云 计算 产业 联盟 环境 下 ， 提 出 
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对 粒子 群 进行 分 组 , 根据 小 组 内 最 优 位 置 的 平均 值 进 
行 小 组 内 粒子 的 信息 交互 。 本 文 基 于 云 计算 产业 联盟 
背景 ,在 此 基础 上 采用 MapReduce 函数 解决 其 并 行 化 
处 理 及 动态 性 增强 的 问题 ， 同 时 改进 标准 粒子 群 算 
法 。 综 合 考虑 粒子 群 与 MapReduce 函数 ,创新 性 地 提 
出 基于 改进 粒子 群 算法 的 云 计算 产业 联盟 知识 搜索 过 
程 ， 如 下 : 

(1) 根据 云 计 算 产 业 联 盟 中 实时 云 数据 库 的 个 数 ， 
利用 MapReduce 中 Map 函数 对 整个 粒子 群 进行 分 组 ， 
由 原始 的 串 行 搜索 改进 为 并 行 搜索 , 减少 搜索 的 时 间 ， 
提升 搜索 的 效率 。 

(2) 粒子 进入 云 数据 库 后 ,用 携带 的 知识 与 云 数 
据 库 中 的 知识 不 断 进行 对 比 ,粒子 根据 联盟 成 员 的 需 
求 选择 最 适合 的 知识 , 同时 以 小 组 内 最 优 位 置 的 平均 
值 作为 粒子 的 移动 依据 。 

(3) 当 粒 子 搜索 结束 后 ，MapReduce 中 Reduce 也 
数 ， 对 不 同 组 的 粒子 搜索 结果 进行 归 约 , 并 将 归 约 后 
的 一 个 或 者 多 个 结果 返还 给 联盟 成 员 ， 具 体 搜 索 流 程 
如 图 1 所 示 。 


3 ”基于 粒子 群 算 法 云 计 算 产 业 联 盟 知识 
搜索 建 模 


3.1 MapReduce 函数 构建 

利用 粒子 群 算法 进行 搜索 , 粒子 的 个 数 越 多 , 算 
法 的 效率 越 高 ,效果 也 更 为 显著 ,但 是 , 粒子 的 个 数 越 
多 ,CPU 被 占用 得 越 多 。 所 以 利用 云 计算 MapReduce 
分 布 式 计算 和 分 集 存储 的 优势 ,能够 给 粒子 足够 的 内 
存 空间 , 同时 加 快 迭代 次 数 。 首 先 运 用 Map 函数 对 整 
个 粒子 群 进行 分 组 ,并 分 配 到 不 同 的 节点 上 执行 , 实 
现 并 行 化 处 理 , Reduce 函数 实现 搜索 结果 的 归 约 ， 这 
里 的 节点 即 为 云 数据 库 中 一 个 独立 的 数据 库 。 其 解决 
了 传统 粒子 群 算法 中 由 于 单 向 局 部 收敛 速度 过 快 而 导 
致 没有 收敛 到 全 局 最 优 的 问题 ,并且 使 搜索 时 间 得 到 
有 效 提升 ,， 另 一 方面 也 更 加 适合 处 于 动态 变化 中 的 联 
盟 知 识 。 本文 首先 利用 Map 函数 根据 节点 的 个 数 将 一 
个 完整 的 粒子 种 群 划 分 成 子 群 ,并 分 配 到 不 同 的 云 数 
据 库 ， 实 现 并 行 化 处 理 。 粒 子 搜索 到 结果 后 ， 再 利用 
Reduce 函数 将 不 同 小 组 的 粒子 进行 合并 ,具体 过 程 如 
图 2 所 示 。 
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图 2 MapReduce 并 行 化 处 理 过 程 
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图 1 云 计算 产业 联盟 知识 搜索 优化 过 程 图 


PE ' 3.2 ”基于 MapReduce 的 粒子 群 算法 改进 


粒子 群 优 化 算法 (Particle Swarm Optimization ， 
PSO) 是 由 J.Kennedy 博 士 和 R.C.Eberhart 博士 于 1995 
年 共同 提出 的 ， 因 其 算法 简单 、 需 要 调节 的 参数 较 少 、 
较 强 的 全 局 优化 能 力 和 高 效 等 特点 , 立即 成 为 研究 热 
点 5。 标 准 粒子 群 算法 的 数学 描述 如 下 吕 

m 个 粒子 在 D 维 的 空间 中 进行 搜索 , 第 i 个 粒子 
的 位 置 用 向 量 x = [xi1,xio,…,Xip] 表示 ， 飞 行 速度 用 
v, 二 [Vi,v2，…,Vip] 表示 , 第 i 个 粒子 搜索 到 的 最 优 位 
置 为 pbPest; = [pi, pi2,**, Pip], 整个 群体 搜索 到 的 最 


优 位 置 为 gbes =[pga, pgi2，…,P8ip]， 则 每 一 个 粒子 
的 速度 和 位 置 更 新 如 公式 (1) 和 公式 (2) 所 示 。 
vA 二 OO +cn(pbest, 一 xf +cr (gbest, 一 xf 人) (]) 
交 二 x Fv (2) 

其 中 ,i = 二 1,2,…m，, 分 别 代 表 不 同 的 粒子 。 学 习 
因子 c 和 c 是 两 个 非 负 数 ，n 和 是 介 于 [0,1] 的 一 个 
随机 数 ，K 为 迭代 次 数 ，w 是 惯性 权重 站。 

标准 的 粒子 群 算法 进行 搜索 时 每 一 次 迭代 都 需要 
所 有 的 粒子 同时 更 新 才能 完成 , 但 是 在 分 布 式 特征 最 
为 明显 的 云 计算 环境 中 搜索 就 显得 尤为 困难 。 而 且 在 
粒子 进行 迭代 时 , 每 一 次 移动 都 需要 所 有 粒子 共享 最 
优 位 置 , 并 且 随 时 都 可 能 更 新 最 优 值 ， 即 粒子 需要 大 
量 的 最 优 位 置 共 享 和 交互 才能 迭代 , 这 并 不 适合 云 计 
算 环 境 。 因 此 在 云 计算 分 布 式 环境 下 , 粒子 如 果 能 
以 异步 进行 迭代 ,降低 粒子 间 共 享 位 置 的 数据 传输 ， 
是 解决 问题 的 关键 。 标 准 的 粒子 群 算法 虽然 具有 重 棒 
性 强 等 特点 , 但 是 算法 在 搜索 初期 , 粒子 的 分 布 较为 
分 散 ， 尽 管 能 够 在 较 大 的 空间 中 进行 搜索 , 但 需要 的 
搜索 时 间 长 。 当 粒子 搜索 一 段 时 间 后 , 由 于 粒子 的 历 
史 最 优 位 置 和 种 群 的 最 优 位 置 接近 一 致 , 造成 粒子 行 
动 迟 缓 ， 丧失 寻 优 能 力 ,算法 早熟 并 收银 于 局 部 最 优 
值 。 所 以 , 算法 改进 的 另 一 个 方面 是 要 保持 粒子 种 群 
的 多 样 性 号 ， 提 高 粒子 的 搜索 能 

本 文 对 算法 的 改进 如 下 : 粒子 群 分 组 后 , 每 组 粒 
子 分 别 独立 进行 搜索 , 对 于 第 7 组 粒子 ,其 速度 和 位 
置 更 新 如 公式 (3) 和 公式 (4) 所 示 。 


k ,+l k, k, k, 大， 
vy = OV; 7/ + cin(pbest,” —X;’)+cn (gbest;’ —x;’) 
(3) 
| k; 大 十 1 
Xi 全 一 2 十 站 全 (4) 


其 中 ， Kk) 表示 第 j 组 粒子 的 迭代 次 数 ， gbest” 
表示 第 j 组 粒子 的 全 局 极 值 。pbest," 表示 在 大 时 刻 小 
组 内 最 优 位 置 的 平均 值 ， 其 余 参 数 含 义 同 标准 粒子 群 
算法 。 

本 文 对 算法 的 改进 一 方面 是 为 了 让 算法 在 云 计算 
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种 载体 , 通过 与 数据 库 中 不 同类 型 的 知识 进行 对 比 选 
择 实现 搜索 。 当 算法 结束 时 ， 得 到 的 最 优 粒子 即 为 云 
计算 产业 联盟 成 员 所 需 的 知识 , 搜索 完成 。 

改进 的 PSO 算法 (CPSO) 知 识 搜索 过 程 如 下 。 

(1) 根据 联盟 成 员 的 搜索 条 件 ， 从 引擎 数据 库 中 
确定 和 联盟 成 员 输 入 关键 字 相 关 的 本 体 化 表达 的 知识 
大 类 作为 初始 化 种 群 。 

(2) 利用 MapReduce 中 的 Map 函数 根据 云 数 据 库 
的 个 数 对 粒子 群 进 行 映射 分 组 。 

(3) 更 新 粒子 的 速度 和 位 置 。 按 照 公 式 (3) 和 公式 
(4) 改 变 每 组 的 粒子 速度 和 位 置 。 

(4) 知识 选择 。 在 每 个 小 组 中 ， 比 较 各 组 粒子 适用 
值 及 其 小 组 内 最 优 位 置 的 平均 值 pbesi,” ， 若 粒子 当 
前 适用 值 优 于 pbest,“， 则 重新 计算 当前 粒子 组 的 位 置 
并 重 置 pbest," 的 值 ; 比较 粒子 的 适用 值 及 小 组 内 最 
优 值 sbest“*， 若 粒子 适用 值 优 于 gbest%， 则 用 当前 粒 
子 位 置 重 置 gpest 的 值 。 

(5) 当 粒 子 搜索 到 结果 或 算法 的 迭代 次 数 达 到 最 
大 迭代 次 数 7-max 时 ,利用 Reduce 函数 对 不 同 种 群 
粒子 最 后 产生 的 最 优 解 进行 归 约 。 

(6) 将 最 优 解 或 者 最 优 解 集 返 回 给 联盟 成 员 。 


4 仿真 实验 


为 更 好 验证 改进 后 的 粒子 群 算 法 在 云 计 算 产 业 联 
盟 知识 搜索 过 程 中 的 有 效 性 , 本文 进行 三 组 仿真 实 
验 。 分 别 对 改进 的 粒子 群 算法 、 改 进 的 粒子 群 算法 在 
云 数 据 库 搜索 中 的 平均 否 吐 量 及 分 组 延迟 中 的 比较 和 
改进 的 粒子 群 算法 在 云 数 据 库 中 的 搜索 进行 仿真 分 
析 。 第 一 个 实验 仿真 软件 为 MATLAB 7.0; 第 二 个 实 
验 选 择 南 加 州 大 学 情报 局 (South California University 
ISD 研 究 院 的 NS-2 作为 模拟 平台 509; 而 第 三 个 实验 选 
择 Linux 系统 Hadoop 2.0 搭建 云 数 据 库 和 云 平台 。 实 
验 仿真 数据 来 自 加 州 大 学 开发 UCI KDD Archive, 用 


于 机 咒 学 习 和 知识 发 现 研究 的 数据 库 平 台 。 根 据 云 计 


分 布 环境 下 得 以 实现 , 另 一 方面 是 利用 云 计 算 优 势 提 
高 算法 速度 ， 使 早熟 收敛 的 问题 及 时 得 到 解决 ,并且 
难以 从 局 部 最 优 中 跳出 来 的 问题 也 得 以 改善 。 
3.3 ”改进 的 粒子 群 算法 步骤 

在 改进 的 粒子 群 算法 中 , 粒子 作为 携带 知识 的 一 


算 产 业 联 盟 及 联盟 内 知识 的 特性 ， 选择 符 合 联 盟 知 识 
特性 的 数据 集 ， 进 行 仿真 模拟 。 
4.1 ”改进 的 粒子 群 仿真 分 析 

用 三 种 Benchmark 函数 分 别 对 标准 粒子 群 算法 和 
改进 的 粒子 群 算法 进行 测试 。 
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(1) Rastrigin 函数 和 分 布 均匀 ,能 够 在 短 时 间 内 找到 正确 的 搜索 方向 ， 
进而 提升 算法 跳出 局 部 最 优 解 的 能 力 。 
4.2 ”去 数据库 知 吐 量 及 分 组 延迟 仿真 分 析 
(2) Griewank 函数 选择 实验 网 络 数据 恰当 与 否 取决 于 许多 以 非 线性 和 
不 可 预测 的 方式 相互 作用 的 影响 程度 ， 所 以 选择 一 个 有 
A A 了 eos 六 +h el-600,600] 意义 的 测试 环境 是 非常 困难 的 : 遵循 的 方法 是 定义 可 调 


fi(x) = > —10cos(2xx,) +10),x, e[-5.12,5.12] 


(3) Rosenbrock 函数 成 分 的 各 种 分 类 组 成 的 有 限 集合 " 1。 选择 南 加 州 大 学 情 
5 报 局 研究 院 的 NS-2 作为 该 实验 平台 。 选 用 吞吐 量 及 数 
及- 和 00Gin -+0 和) 了 <[3030 。 。 据 分 组 延迟 作为 对 算法 有 效 性 的 衡量 标准 实验 数据 是 
Rastrigin 中 和 Griewank 0 都 是 多 峰 函 数 ， 利 用 一 50 次 实验 的 平均 值 , 每 次 仿真 时 间 为 1 000 个 虚拟 秒 。 
般 的 算法 搜索 最 优 值 有 很 大 的 难度 ;Rosenbrock 是 单 从 图 3 的 实验 结果 来 看 ,改进 的 粒子 群 算法 更 优 ， 
峰 函数 ， 函数 取 值 走势 平缓 , 难以 搜索 到 最 优 解 ,三 个 ”每 秒 正 确 传输 的 比特 数 保 持 在 1000Kb/s， 而 标准 的 
~ 函数 的 维 数 都 为 10， 最 优 解 都 为 0。 粒子 群 算法 明显 低 于 改进 的 粒子 群 算法 。 从 图 4 的 实 
CO 函数 测试 迭代 次 数 为 1 000, 三 个 函数 都 独立 运 ” 验 结果 来 看 , 改进 的 粒子 群 算法 时 间 延 迟 较 低 。 
行 100 次 。 模 拟 10 个 计算 单元 , 每 个 计算 单元 有 50 入 
= 个 粒子 ， 所 以 种 群 规模 等 效 于 S00 个 粒子 。 同样 标准 1000 
@ 粒子 群 中 粒子 个 数 也 为 500。 标 准 PSO 算法 的 参数 设 。 妆 so0 2 
全 置 为 : a ==2.05; c==2.00; w=077 。 为 了 方便 比 ”和 半 ao 四 本 
发 。。 较 优化 算法 的 a 、c 、o 参数 取 值 与 标准 算法 相同 。 。 请 400 一 PSO 
S 实验 结果 如 表 2 所 示 。 F 200 
SN 天 2 国 数 实验 征 果 比较 1 ， 
函数 算法 来 源 ”平均 值 ”最 好 值 最 差 值 图 3 平均 吞吐 量 
DC Rastrigin PSO 18.34 6.58 29.95 
© 0 CPSO 5.20 1.89 8.98 rn 
.所 Griewank PSO 0.81 0.36 1.15 
下 0 CPSO 0.23 0.05 0.45 s 学 本 
©O Rosenbrock PSO 200.63 13.95 908.72 E He SE ss C0 
0 CPSO 5.89 0.18 7.19 : 
0.05 
从 上 述 的 实验 结果 可 以 看 出 , 在 相同 粒子 的 情况 a 
下 进行 寻 优 时 , 利用 改进 的 粒子 群 算法 对 多 峰 函 数 Times/s 
Rastrigin 寻 优 ,其 平均 值 、 最 好 值 和 最 差 值 均 有 提升 , 图 4 分 组 延迟 的 经 验 分 布 
平均 值 从 18.34 提升 到 5.20, 全 局 搜索 能 力 有 明显 的 4.3 ”搜索 时 间 和 搜索 准确 率 分 析 
人 本 文 研究 的 是 云 计算 产业 联盟 知识 搜索 为 验证 


也 有 提升 , 但 是 由 于 函数 本 喘 值 域 较为 集中 , 平均 值 。 知识 搜索 的 准确 率 和 时 效 性 , 搭建 云 计算 产业 联盟 知 
仅 从 0.81 提升 到 0.23; Rosenbrock 函数 是 复杂 的 非 识 搜索 实验 环境 ,建立 虚拟 机 。 在 虚拟 机 下 , 搭建 20 
四 、 病 态 单 峰 冰 数 , 所 以 全 局 搜索 能 力 极为 重要 ， 函数。 个 Linux 环境 , 每 个 Linux 系统 下 采用 Hadoop 2.0 搭 
原本 提供 的 信息 少 , 传统 的 粒子 群 算 法 很 难 在 短 时 间 ”” 建 用 来 表示 云 计算 产业 联盟 成 员 存 储 知识 的 云 数据 库 
内 辨别 搜索 的 方向 , 从 而 陷入 局 部 最 优 , 也 因此 造成 和 进行 知识 搜索 的 云 平台 

单 次 结果 差异 很 大 。 改 进 的 粒子 群 算法 因 全 局 遍历 性 在 第 一 组 仿真 实验 中 ,将 标准 粒子 群 算法 (PSO) 
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和 改进 的 粒子 群 算法 (CPSO) 依 次 在 搭建 好 的 云 计算 
产业 联盟 环境 中 进行 知识 搜索 ,通过 图 5 可 以 看 出 , 在 
进行 知识 搜索 时 , 改进 的 粒子 群 算法 的 准确 率 更 高 ， 
耗 时 更 小 , 这 是 因为 在 模拟 的 云 计算 产业 联盟 环境 中 
云 数据 库 众多 , 标准 的 粒子 群 初始 搜索 位 置 随机 生成 ， 
搜索 方式 是 串 行 搜索 ,需要 耗费 更 多 时 间 。 在 搜索 的 
后 期 , 粒子 的 历史 最 优 位 置 和 群体 的 最 优 位 置 趋 近 一 
致 ,使 得 粒子 移动 速度 过 慢 ， 基 本 丧失 寻 优 能 力 ， 准 
确 率 不 高 。 在 第 二 组 仿真 实验 中 , 将 文献 [9] 提 出 的 动 
态 分 组 的 粒子 群 算法 (DGPSO) 和 改进 的 粒子 群 算法 
(CPSO) 依 次 在 搭建 好 的 云 计 算 产 业 联 盟 环境 中 进行 
知识 搜索 , 通过 图 6 可 以 看 出 改进 的 粒子 群 算法 的 准 
确 率 仍然 更 高 ,上 且 耗 时 更 小 。 通 过 图 5 和 图 6 的 对 比 
可 知 ,动态 分 组 粒子 群 算法 的 准确 率 要 比 标准 粒子 群 
算法 高 , 性 能 有 所 提升 , 耗 时 也 更 低 , 但 是 在 云 计 算 
产业 联盟 复杂 的 环境 下 ,搜索 能 力 还 是 没有 本 文 提出 


的 改进 的 粒子 群 算法 强 。 


新 时 “ 
图 6 第 二 组 仿真 实验 结果 
5 结 语 

为 解决 由 于 云 计算 产业 联盟 知识 特性 导致 联盟 成 
员 难 以 在 云 数 据 库 进行 知识 搜索 的 问题 ， 本文 提出 一 
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种 改进 的 粒子 群 算法 对 联盟 云 数据 库 实现 知识 搜索 。 
在 粒子 群 算法 的 基础 上 结合 MapReduce 并 行 计算 的 思 
想 , 减少 原本 算法 在 对 云 计算 产业 联盟 大 量 丰 富 且 动 
态 的 知识 进行 搜索 的 时 间 ; 同时 将 粒子 分 组 , 更 好 地 
提高 云 计 算 产 业 联盟 知识 搜索 的 准确 性 。 最 后 通过 三 
组 仿真 实验 对 改进 的 粒子 群 算法 和 标准 粒子 群 算法 进 
行 对 比分 析 , 结果 表明 改进 的 粒子 群 算法 在 效率 与 准 
确 率 方面 均 具有 明显 的 优越 性 。 在 下 一 步 的 研究 中 , 将 
致力 于 云 计算 产业 联盟 知识 搜索 结果 的 筛选 匹配 方面 ， 
从 而 保障 云 计算 产业 联盟 成 员 进 行 有 效 知识 获取 。 
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Knowledge Search for Cloud Computing Industry Alliance: 
An Algorithm Based on Improved Particle Swarm Optimization 


Gao Changyuan"” YuJianping' He Xiaoyan 
!(College of Management, Harbin University of Science and Technology, Harbin 150040, China) 
“(High-tech Industrial Development Research Center, Harbin University of Science and Technology, 
Harbin 150040, China) 


Abstract: [Objective] This paper uses an algorithm based on the improved particle swarm optimization to conduct 
knowledge search for cloud computing industry alliance, aiming to improve its accuracy and efficiency. [Methods] 
First, we utilized the Map function of the MapReduce model to process particle grouping. Secondly, we used the 
Reduce function to shorten the particle search result lists and search time. Lastly, the information interaction of the 
particles was decided by the average value of the optimal position within each group, which avoided the premature 
convergence of using a local optimal value. [Results] We compared the performance of the improved algorithm with 
the standard ones by three rounds of simulation experiments. We found that the improved particle swarm algorithm was 
superior in efficiency and accuracy. [Limitations] There is some noisy data in the sample. [Conclusions] The proposed 
algorithm could improve the accuracy and efficiency of knowledge search for the cloud computing industry alliance. 
Keywords: Cloud Computing Industry Alliance Knowledge Search Particle Swarm Optimization Algorithm 
MapReduce 
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